Bolagsverkets digitala årsredovisningar
En storskalig paneldatabas byggd på iXBRL-inlämningar via Bolagsverkets öppna data. Databasen kombinerar strukturerad finansiell information med fritext från förvaltningsberättelser — och möjliggör AI-driven analys av det svenska företagslandskapet.
↓ Scrolla för att utforska databasen
01
Datakällan
Sedan 2020 lämnar svenska aktiebolag in sina årsredovisningar digitalt till Bolagsverket i iXBRL-format (Inline eXtensible Business Reporting Language). Filerna är maskinläsbara och publiceras som öppen data av Bolagsverket.
Varje inlämning innehåller inte bara siffror — balansräkning, resultaträkning, nyckeltal — utan även fritext från förvaltningsberättelsen: verksamhetsbeskrivning, väsentliga händelser, redovisningsprinciper och mer.
Vad gör detta unikt
Till skillnad från traditionella redovisningsdatabaser som Serrano, Bisnode eller Retriever är källdatan här strukturerad vid inlämningen — inte retroaktivt digitaliserad. Det innebär konsekvent taggning, standardiserade fältnamn, och en textmassa som kan bearbetas direkt med NLP/AI utan OCR eller manuell parsing.
Öppen data
Bolagsverket tillhandahåller iXBRL-filerna kostnadsfritt. Vår databas är ett bearbetat och strukturerat uttag av dessa offentliga data, organiserat som en forskningspanel (företag × räkenskapsår).
02
Databasen i siffror
Databasen täcker räkenskapsår 2020–2025 och växer löpande i takt med att fler företag lämnar in digitalt.
1 377 756
Företag × räkenskapsår
Observationer per räkenskapsår
| Räkenskapsår | Observationer | Unika företag |
| 2020 | 156 022 | 156 022 |
| 2021 | 227 444 | 227 444 |
| 2022 | 302 273 | 302 273 |
| 2023 | 364 758 | 364 758 |
| 2024 | 320 195 | 320 195 |
| 2025 (preliminärt) | 7 064 | 7 064 |
Tillväxtdynamik
Antalet observationer mer än fördubblas mellan 2020 och 2023 — från 156 000 till 365 000 — i takt med att den digitala inlämningen fasas in. 2025 är ännu ett ofullständigt år i databasen.
03
Populationstäckning och storleksfördelning
Matchning mot SCB:s företagsregister (snapshot 2025-12-25) visar att databasen täcker drygt hälften av Sveriges aktiva aktiebolag.
643 326
Aktiva aktiebolag i Sverige
366 258
Aktiva AB i databasen
Storleksfördelning bland företagen
| Storleksklass | Företag | Andel | Median oms. | Median balomslutn. |
| Mikro (<10 anst.) | 257 425 | 53,2 % | 1,1 Mkr | 1,0 Mkr |
| Små (10–49) | 14 087 | 2,9 % | 24,6 Mkr | 11,8 Mkr |
| Medelstora (50–249) | 1 076 | 0,2 % | 97,6 Mkr | 43,2 Mkr |
| Stora (250+) | 83 | 0,0 % | 787 Mkr | 371 Mkr |
| Okänd storlek | 210 793 | 43,6 % | 6 tkr | 0,7 Mkr |
Tyngdpunkten
Databasen är inte bara storbolag. Median-företaget har 1 anställd och en omsättning på 518 tkr. Det är det breda svenska företagslandskapet — mikroföretag, enmansbolag, småföretagare.
04
Sektorfördelning
Matchning mot SCB:s näringsgrenskod (SNI) finns för 91 % av företagen. Fördelningen speglar det breda svenska näringslivet.
Tolkning
Tyngdpunkten ligger i det breda svenska företagslandskapet, med stor närvaro i bygg, handel, tjänster, IT/kommunikation och fastigheter.
05
Textdata i årsredovisningarna
iXBRL-formatet bär inte bara siffror. Åtta strukturerade textfält fångar narrativen i förvaltningsberättelsen — från verksamhetsbeskrivning till redovisningsprinciper.
| Textfält | Observationer | Andel | Medel (tecken) | Median |
Allmän verksamhetsbeskrivning | 1 339 466 | 97,2 % | 124 | 95 |
Redovisnings- och värderingsprinciper | 841 422 | 61,1 % | 123 | 115 |
Väsentliga händelser under räkenskapsåret | 376 875 | 27,4 % | 112 | 41 |
Definitioner av nyckeltal | 306 851 | 22,3 % | 98 | 15 |
Styrelsens yttrande om vinstutdelning | 286 885 | 20,8 % | 340 | 339 |
Kommentar till flerårsöversikt | 163 513 | 11,9 % | 98 | 90 |
Väsentliga händelser efter räkenskapsårets slut | 92 855 | 6,7 % | 138 | 100 |
Redovisnings- och värderingsprinciper | 41 961 | 3,0 % | 186 | 97 |
Nyckelinsikt
Verksamhetsbeskrivningen finns i 97,2 % av alla observationer. Det innebär att databasen inte bara är siffror — det finns en nästan universell texttäckning som kan bearbetas med NLP och AI.
06
Ämnesord i texterna
Redan med enkla nyckelordssökningar kan vi spåra vilka ämnen som svenska företag skriver om i sina årsredovisningar. Siffrorna avser firma-år-nivå.
| Ämne | Firma-år | Unika företag | Andel av panelen |
| Hållbarhet / klimat / ESG | 8 192 | 4 542 | 0,59 % |
| Ukraina | 5 528 | 4 435 | 0,40 % |
| Inflation | 3 145 | 2 502 | 0,23 % |
| Digitalisering | 1 855 | 862 | 0,13 % |
| AI (fristående term) | 895 | 607 | 0,06 % |
| Automatisering | 789 | 404 | 0,06 % |
| Artificiell intelligens | 416 | 209 | 0,03 % |
| Maskininlärning | 293 | 131 | 0,02 % |
| ChatGPT | 5 | 5 | 0,00 % |
Poängen
Exakta AI-relaterade ord är fortfarande sällsynta i hela populationen. Just därför fungerar de bra som indikator — de fångar tidiga teknologiska signaler även bland mindre svenska bolag.
07
AI i årsredovisningar — trenden
Med en bred AI-definition (AI, artificiell intelligens, maskininlärning, machine learning, ChatGPT) kan vi följa hur fenomenet sprids genom det svenska företagslandskapet.
AI-omnämnanden per räkenskapsår
AI-omnämnanden per sektor
Nyckelbudskap
AI-omnämnanden ökar tydligt från 2022 till 2024 — antalet stiger från 232 till 464 observationer. Andelen av panelen ökar samtidigt från 0,077 % till 0,145 %, nästan en fördubbling. AI-språket domineras av IT och kunskapsintensiva tjänster men förekommer också i utbildning, handel, finans och tillverkning.
08
AI- och digitaliseringsexempel
Fem utdrag ur årsredovisningar som illustrerar hur AI-relaterat språk ser ut i praktiken — från IT-konsulter till tillverkare.
"Microsofts förvärv av OpenAI och det stora genomslaget för ChatGPT har ökat intresset för AI-tjänster avsevärt."
"Tecknat avtal med apoteksaktör och startat projekt inom artificiell intelligens."
"Bolagets ändamål är att bedriva utbildningsverksamhet inom områdena data, artificiell intelligens, forskning, informationsteknologi, ekonomi, juridik, teknik, pedagogik..."
"Bolaget bedriver verksamhet inom datavetenskap, artificiell intelligens, konsulttjänster inom hälsa och sjukvård."
"...byggnation av specialmaskiner för automatisering inom förpackningsindustrin..."
09
Proof-of-concept: textanalys med embeddings
Utöver enkla nyckelord kan vi använda semantiska embeddings för att analysera textinnehållet maskinellt. Här demonstrerar vi en prototyp byggd på ett balanserat urval av 400 texter från fältet väsentliga händelser.
Metod i korthet
Varje text omvandlas till en semantisk vektor med OpenAI:s embedding-modell. Sedan mäter vi hur nära varje text ligger fem fördefinierade konjunkturdimensioner genom cosine similarity mot handskrivna sökfraser:
| Dimension | Vad den fångar | Antal texter |
Positiv utveckling | Positiv affärsutveckling, tillväxt | 74 |
Finansiella problem | Förbrukat eget kapital, kontrollbalansräkning | 74 |
Ökade kostnader | Stigande input-kostnader, inflation, energi | 64 |
| Minskande efterfrågan | Vikande efterfrågan, minskad försäljning | 13 |
| Konkurrenstryck | Ökad konkurrens, prispress | 7 |
Vad gör detta annorlunda
Modellen klassificerar inte med nyckelordsregler. Den mäter hur semantiskt nära varje text ligger olika konjunkturbegrepp — även om texten använder helt andra ord. Det innebär att vi kan fånga konjunktursignaler som traditionell textmining missar.
10
UMAP-visualisering av embedding-rymden
UMAP (Uniform Manifold Approximation and Projection) komprimerar de högdimensionella embeddingarna till två dimensioner. Varje punkt är en text; färgen visar vilken konjunkturdimension den ligger närmast.
Hur man läser figuren
Axlarna har ingen direkt — det som räknas är avstånd och gruppering. Punkter nära varandra är semantiskt lika. Att fnansiella problem (financial_distress) bildar ett distinkt kluster (nedre vänstra) och ökade kostnader (cost_pressure) samlas (övre högra) bekräftar att embedding-modellen fångar ekonomiskt meningsfulla skillnader i texterna.
Överlappning är förväntat
Blandade färger i mitten av kartan speglar att årsredovisningstexter ofta innehåller flera narrativ samtidigt — "omsättningen ökade, men inflation och råvarukostnader pressade marginalerna". Semantisk överlappning i kartan är inte ett modellfel utan ett avtryck av verkliga blandade konjunkturbilder.
11
Begränsningar och metodnoter
För trovärdighet är det viktigt att tydligt ange gränserna för vad vi visar.
Databas
Täckningsgraden (56,9 %) bygger på en lokal SCB-snapshot per 2025-12-25. Storleksklass mot hela populationen gick inte att beräkna robust eftersom SCB-snapshotens saknar populationstäckande storleksmått. 2025 är ett partiellt år.
Ämnesord
Siffrorna för AI, hållbarhet m.fl. bygger på enkla nyckelordssökningar i råa textblock — inte semantiska modeller. Andelen som skriver om AI kan vara högre om man inkluderar indirekt AI-relaterat språk.
Embedding-analys
Prototypen bygger på ett urval om 400 texter, inte hela produktionsdatabasen. Etiketterna är svagt övervakade (query-baserade), inte handannoterade guldstandard. UMAP är ett visualiseringsverktyg — den exakta 2D-layouten kan variera med parameterval.
Takeaway
Databasen är tillräckligt stor, strukturerad och textrik för att stödja både klassisk redovisningsforskning och modern AI-baserad textanalys. Proof-of-concept visar att semantiska konjunktursignaler kan utvinnas systematiskt — nästa steg är att skala detta till hela populationen.